如果我们想在将它们部署在现实中之前在模拟中训练机器人,那么假定减少SIM2REAL差距的人似乎很自然,并且几乎是不言而喻的,涉及创建富裕性的模拟器(因为现实就是事实)。我们挑战了这一假设并提出了相反的假设-SIM2REAL转移机器人可以通过较低(不是更高)的保真度模拟来改善。我们使用3种不同的机器人(A1,Aliengo,Spot)对这一假设进行了系统的大规模评估 - 在现实世界中以及2个不同的模拟器(栖息地和Igibson)。我们的结果表明,与期望相反,增加忠诚无助于学习。由于模拟速度缓慢(防止大规模学习)和对模拟物理学不准确的过度拟合,因此性能较差。取而代之的是,使用现实世界数据构建机器人运动的简单模型可以改善学习和概括。
translated by 谷歌翻译
以对象为中心的表示是人类感知的基础,并使我们能够对世界进行推理,并系统地推广到新的环境。当前,大多数在无监督的对象发现上的作品集中在基于插槽的方法上,这些方法明确将单个对象的潜在表示分开。尽管结果很容易解释,但通常需要设计相关建筑的设计。与此相反,我们提出了一种相对简单的方法 - 复杂的自动编码器(CAE) - 创建分布式以对象为中心的表示。遵循对生物神经元中对象表示为基础的编码方案,其复杂值激活表示两个消息:它们的幅度表达了特征的存在,而神经元之间的相对相位差异应绑定在一起以创建关节对象表示。 。与以前使用复杂值激活进行对象发现的方法相反,我们提出了一种完全无监督的方法,该方法是端到端训练的 - 导致了性能和效率的显着提高。此外,我们表明,与最新的基于最新的插槽方法相比,CAE在简单的多对象数据集上实现了竞争性或更好的无监督对象发现性能,同时训练的速度要快100倍。
translated by 谷歌翻译
In this paper, we present a novel method for integrating 3D LiDAR depth measurements into the existing ORB-SLAM3 by building upon the RGB-D mode. We propose and compare two methods of depth map generation: conventional computer vision methods, namely an inverse dilation operation, and a supervised deep learning-based approach. We integrate the former directly into the ORB-SLAM3 framework by adding a so-called RGB-L (LiDAR) mode that directly reads LiDAR point clouds. The proposed methods are evaluated on the KITTI Odometry dataset and compared to each other and the standard ORB-SLAM3 stereo method. We demonstrate that, depending on the environment, advantages in trajectory accuracy and robustness can be achieved. Furthermore, we demonstrate that the runtime of the ORB-SLAM3 algorithm can be reduced by more than 40 % compared to the stereo mode. The related code for the ORB-SLAM3 RGB-L mode will be available as open-source software under https://github.com/TUMFTM/ORB SLAM3 RGBL.
translated by 谷歌翻译
Complete depth information and efficient estimators have become vital ingredients in scene understanding for automated driving tasks. A major problem for LiDAR-based depth completion is the inefficient utilization of convolutions due to the lack of coherent information as provided by the sparse nature of uncorrelated LiDAR point clouds, which often leads to complex and resource-demanding networks. The problem is reinforced by the expensive aquisition of depth data for supervised training. In this work, we propose an efficient depth completion model based on a vgg05-like CNN architecture and propose a semi-supervised domain adaptation approach to transfer knowledge from synthetic to real world data to improve data-efficiency and reduce the need for a large database. In order to boost spatial coherence, we guide the learning process using segmentations as additional source of information. The efficiency and accuracy of our approach is evaluated on the KITTI dataset. Our approach improves on previous efficient and low parameter state of the art approaches while having a noticeably lower computational footprint.
translated by 谷歌翻译
卷积神经网络在分类方面表现出了显着的结果,但在即时学习新事物方面挣扎。我们提出了一种新颖的彩排方法,其中深度神经网络正在不断学习新的看不见的对象类别,而无需保存任何先前序列的数据。我们的方法称为召回,因为网络通过在培训新类别之前计算旧类别的逻辑来回忆类别。然后在培训期间使用这些,以避免更改旧类别。对于每个新序列,都会添加一个新的头部以适应新类别。为了减轻遗忘,我们提出了一种正规化策略,在该策略中我们用回归替换分类。此外,对于已知类别,我们提出了一个玛哈拉氏症损失,其中包括差异,以说明已知类别和未知类别之间的密度变化。最后,我们提供了一个用于持续学习的新颖数据集,尤其是适用于移动机器人(Hows-CL-25)上的对象识别的数据集,其中包括25个家庭对象类别的150,795个合成图像。我们的方法回忆起优于Core50和ICIFAR-100上的艺术现状,并在HOWS-CL-25上取得了最佳性能。
translated by 谷歌翻译
为了追求基于本体本体的查询的通用标准,我们介绍了存在规则的“有限 - 局限性集合”(FCS),这是一种模型定义的规则集类别,灵感来自图形理论的cliquewidth措施。通过一个通用参数,我们表明FCS确保对相当一类的查询类(称为“ Damsoqs”)的必要性进行可决定性,这些查询均包含结合性查询(CQS)。 FCS类适当地概括了有限扩展集(FES)的类别,并且最多可以介绍2个Arity的签名,即有界树的类别(BTS)。对于较高的ARIT,BTS仅由FC通过重新化而间接汇总。尽管FCS的普遍性,但我们提供了一个规则集,该规则集具有可决定的CQ符号(由于一阶 - 剥离性),因此落在FC之外,从而证明了FCS的无与伦比和有限合并集(FUS)的无效性。尽管如此,我们还是表明,如果我们将自己限制在最多2的单头规则设置上,那么FCS属于FUS。
translated by 谷歌翻译
运动结构在现实世界中非常普遍。它们范围从简单的铰接物对象到复杂的机械系统。但是,尽管它们相关,但大多数基于模型的3D跟踪方法仅考虑刚性对象。为了克服这一限制,我们提出了一个灵活的框架,该框架允许将现有的6DOF算法扩展到运动结构。我们的方法着重于采用类似牛顿的优化技术的方法,这些方法广泛用于对象跟踪中。该框架考虑了树状和封闭的运动学结构,并允许对关节和约束的灵活配置。为了从单个刚体到多体系统的项目方程式,使用了雅各布人。对于封闭的运动链,开发了一种具有Lagrange乘数的新型配方。在详细的数学证明中,我们表明我们的约束配方会导致精确的运动解,并在单个迭代中收敛。基于提出的框架,我们将ICG扩展到了最新的刚性对象跟踪算法,将其扩展到多体跟踪。为了进行评估,我们创建了一个高度现实的合成数据集,该数据集具有大量序列和各种机器人。基于此数据集,我们进行了多种实验,这些实验证明了开发框架和我们的多体跟踪器的出色性能。
translated by 谷歌翻译
我们介绍了DLR行星立体声,固态激光雷达,惯性(S3LI)数据集,记录在埃特纳山上,西西里山(Sicily),一种类似于月球和火星的环境,使用手持式传感器套件,适用于适用于空间上的属性 - 像移动漫游器。环境的特征是关于视觉和结构外观的具有挑战性的条件:严重的视觉混叠,对视觉大满贯系统执行位置识别的能力构成了重大限制,而缺乏出色的结构细节,与有​​限的视野相连在利用的固态激光雷达传感器中,仅使用点云就挑战了传统的激光雷达大满贯。借助此数据,涵盖了在软火山斜坡上超过4公里的旅行,我们的目标是:1)提供一种工具来揭示有关环境的最先进的大满贯系统的限制,而环境并未广泛存在可用的数据集和2)激励开发新颖的本地化和映射方法,这些方法有效地依赖于两个传感器的互补功能。数据集可在以下URL上访问:https://rmc.dlr.de/s3li_dataset
translated by 谷歌翻译
在处理知识时考虑个人,潜在的矛盾观点的重要性已得到广泛认可。许多现有的本体管理方法完全合并了知识的观点,这可能需要削弱以保持一致性;其他人以完全独立的方式代表了独特的观点。作为替代方案,我们提出了观点逻辑,这是一种简单而多功能的多模式逻辑````addon''',用于现有的KR语言,用于针对域知识的集成表示,相对于多样化的,可能是相互冲突的角度,可以是层次结构化的, ,组合并相互关联。从一阶观点逻辑(FOSL)的通用框架开始,我们随后将注意力集中在句子公式的片段上,为此,我们将poly Time Translation转换为无角度版本。该结果对一阶逻辑的各种高度表达性可决定性片段产生可决定性和有利的复杂性。然后,我们使用一些精心设计的编码技巧,然后为OWL 2 DL本体语言的逻辑SROIQB_S建立类似的翻译。借助此结果,现有高度优化的猫头鹰推理器可用于为通过角度建模扩展的本体学语言提供实用的推理支持。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译